대규모 언어 모델_(r2)

혹시 LLM 사용하셨나요?

이 문서의 내용 중 전체 또는 일부는 LLM이 작성하였습니다.

1. 개요2. 역사

2.1. 초기 단계2.2. 딥러닝의 부상2.3. 트랜스포머의 등장과 LLM의 확산

3. 주요 기술

3.1. 트랜스포머 아키텍처3.2. 사전 학습(Pre-training)과 파인튜닝(Fine-tuning)3.3. 스케일링 법칙(Scaling Laws)3.4. 프롬프트 엔지니어링(Prompt Engineering)

4. 능력 및 활용 분야5. 대표적인 모델6. 한계점 및 과제7. 전망8. 여담

1. 개요[편집]

대규모 언어 모델(Large Language Model, LLM)은 방대한 양의 텍스트 데이터로 학습하여 인간과 유사한 텍스트를 이해하고 생성할 수 있는 인공지능 모델이다. 주로 딥러닝 기술, 특히 트랜스포머 아키텍처를 기반으로 하며, 수십억 개에서 수조 개에 이르는 매우 많은 수의 파라미터(매개변수)를 가진다.

LLM은 문맥을 이해하고, 질문에 답변하며, 글을 요약하고, 새로운 텍스트를 창작하는 등 다양한 자연어 처리(NLP) 작업을 수행할 수 있다. 최근 몇 년간 기술 발전이 급속도로 이루어지면서 ChatGPT와 같은 서비스들이 등장하여 대중의 큰 관심을 받고 있으며, 사회 전반에 걸쳐 큰 영향을 미치고 있다.

2. 역사[편집]

2.1. 초기 단계[편집]

LLM의 개념은 갑자기 등장한 것이 아니라, 수십 년간 이어진 자연어 처리 및 기계학습 연구의 결과물이다.

1950년대 ~ 2000년대 초반: 규칙 기반 시스템, 통계적 방법론(예: N-gram)이 주를 이루었다. 데이터의 패턴을 학습하려는 시도가 있었으나, 복잡한 언어의 뉘앙스를 파악하는 데는 한계가 있었다.
2000년대 중반 ~ 2010년대 초반: Word2Vec, GloVe 등 단어 임베딩 기술이 발전하면서 단어의 의미를 벡터 공간에 표현하려는 시도가 이루어졌다. 이는 이후 딥러닝 기반 모델의 토대가 되었다.

2.2. 딥러닝의 부상[편집]

2010년대: 순환 신경망(RNN)과 LSTM(Long Short-Term Memory), GRU(Gated Recurrent Unit)와 같은 딥러닝 모델이 NLP 분야에서 주목받기 시작했다. 이 모델들은 문맥 정보를 더 효과적으로 처리할 수 있었으나, 긴 문장에 대한 처리나 병렬화의 어려움 등의 한계가 있었다.

2.3. 트랜스포머의 등장과 LLM의 확산[편집]

2017년: 구글 연구팀이 발표한 논문 "Attention Is All You Need"에서 트랜스포머 아키텍처가 제안되었다. 셀프 어텐션(Self-Attention) 메커니즘을 통해 병렬 처리가 가능해지고 긴 의존성 문제를 해결하면서 LLM 발전의 결정적인 전환점이 되었다.
2018년 이후:
- BERT(Bidirectional Encoder Representations from Transformers): 구글에서 개발. 양방향 문맥 이해에 강점을 보이며 다양한 NLP 벤치마크에서 최고 성능을 달성했다.
- GPT 시리즈 (OpenAI): GPT-1을 시작으로 GPT-2, GPT-3, GPT-3.5, GPT-4로 이어지며 모델 크기와 성능이 비약적으로 발전했다. 특히 GPT-3는 매우 자연스러운 텍스트 생성 능력으로 충격을 주었으며, ChatGPT는 이를 기반으로 대화형 인터페이스를 제공하여 LLM의 대중화를 이끌었다.
- 이 외에도 Meta AI의 LLaMA, Anthropic의 Claude, 구글의 LaMDA, PaLM 등 다양한 LLM들이 경쟁적으로 개발되고 있다.
- 국내에서도 네이버 클라우드의 HyperCLOVA, 카카오브레인의 KoGPT 등 한국어 특화 LLM들이 개발되었다.

3. 주요 기술[편집]

3.1. 트랜스포머 아키텍처[편집]

LLM의 핵심 기반 기술. 셀프 어텐션(Self-Attention) 메커니즘을 통해 문장 내 단어 간의 관계 및 중요도를 파악하여 문맥을 효과적으로 이해한다. 기존 RNN 계열 모델의 순차적 처리 방식과 달리 병렬 처리가 가능하여 대규모 데이터 학습에 유리하다. 인코더-디코더 구조를 가지며, 주로 생성 모델에는 디코더 스택이 활용된다.

3.2. 사전 학습(Pre-training)과 파인튜닝(Fine-tuning)[편집]

사전 학습: 대규모의 레이블 없는 텍스트 데이터(코퍼스)를 이용해 언어 자체의 일반적인 패턴, 문법, 의미 등을 학습한다. 이 단계에서 모델은 광범위한 지식을 습득한다. 주로 자기 지도 학습(Self-supervised learning) 방식[1]을 사용한다.
파인튜닝: 사전 학습된 모델을 특정 작업[2]에 맞는 소규모의 레이블된 데이터로 추가 학습하여 해당 작업의 성능을 극대화한다. 최근에는 인간의 피드백을 통해 모델을 정렬하는 RLHF(Reinforcement Learning from Human Feedback) 기법도 널리 사용된다.

3.3. 스케일링 법칙(Scaling Laws)[편집]

모델의 파라미터 수, 학습 데이터셋의 크기, 사용된 연산량(compute)이 증가할수록 LLM의 성능이 예측 가능하게 향상된다는 경험적 법칙이다[3] 이로 인해 LLM 개발 경쟁은 모델과 데이터의 규모를 키우는 방향으로 진행되는 경향이 있다.

3.4. 프롬프트 엔지니어링(Prompt Engineering)[편집]

LLM이 원하는 결과물을 생성하도록 입력(프롬프트)을 효과적으로 설계하고 최적화하는 기술이다. LLM은 프롬프트에 매우 민감하게 반응하기 때문에, 프롬프트의 내용과 형식에 따라 결과물의 품질이 크게 달라질 수 있다.

퓨샷 러닝(Few-shot Learning): 몇 가지 예시(shot)를 프롬프트에 포함하여 모델이 특정 작업을 수행하도록 유도하는 방식.
체인 오브 쏘트(Chain-of-Thought, CoT): 복잡한 추론 문제에 대해 중간 단계의 생각 과정을 프롬프트에 예시로 제공하여 모델이 유사한 방식으로 문제를 해결하도록 유도하는 기법.

4. 능력 및 활용 분야[편집]

텍스트 생성: 기사, 소설, 시, 코드, 스크립트, 이메일 초안 등 다양한 종류의 창의적인 텍스트 생성.
기계 번역: 다양한 언어 간의 실시간 번역.
텍스트 요약: 긴 문서를 핵심 내용만 간추려 요약.
질의응답(Q&A): 사용자의 질문에 대해 정보를 찾아 답변하거나 추론을 통해 답변 생성.
챗봇 및 대화형 AI: 고객 서비스, 개인 비서, 교육, 상담 등. ChatGPT가 대표적.
코드 생성 및 디버깅: 프로그래밍 코드 자동 생성, 주석 작성, 오류 수정 지원.
감정 분석: 텍스트에 담긴 감정(긍정, 부정, 중립 등)을 파악하여 마케팅, 여론 분석 등에 활용.
정보 검색 및 추출: 문서에서 특정 정보를 찾아내거나 구조화된 형태로 변환.

5. 대표적인 모델[편집]

OpenAI
- GPT 시리즈: GPT-3, GPT-3.5 (ChatGPT 기반), GPT-4, GPT-4o
구글 / DeepMind
- BERT
- LaMDA (Language Model for Dialogue Applications)
- PaLM (Pathways Language Model), PaLM 2
- Gemini
Meta AI
- LLaMA (Large Language Model Meta AI), LLaMA 2, Llama 3
- OPT (Open Pre-trained Transformer)
Anthropic
- Claude, Claude 2, Claude 3 (Opus, Sonnet, Haiku)
기타
- BLOOM: BigScience 프로젝트의 다국어 오픈소스 LLM.
- Cohere
- AI21 Labs Jurassic 시리즈
국내 모델
- 네이버 클라우드: HyperCLOVA, HyperCLOVA X
- 카카오브레인: KoGPT
- LG AI연구원: 엑사원(EXAONE)
- KT: 믿:음(Mi:dm)
- SK텔레콤: 에이닷 LLM (A.X)

6. 한계점 및 과제[편집]

환각 현상(Hallucination): 사실이 아니거나 맥락에 맞지 않는 정보를 그럴듯하게 생성하는 문제. LLM은 확률적으로 가장 그럴듯한 다음 단어를 예측하기 때문에, 학습 데이터에 없거나 잘못된 정보도 마치 사실인 것처럼 생성할 수 있다. 이는 LLM의 신뢰성을 저해하는 주요 원인이다.
편향성(Bias): 학습 데이터에 내재된 편견(인종, 성별, 특정 집단에 대한)을 학습하여 결과물에 반영할 수 있다. 이는 사회적 차별을 재생산하거나 악화시킬 수 있다.
높은 비용: 모델 학습 및 추론에 막대한 양의 컴퓨팅 자원(GPU 등)과 전력이 소모되어 비용 부담이 크다. 이는 일부 거대 기업에 기술이 집중되는 결과를 초래할 수 있다.
데이터 의존성: 최신 정보나 특정 전문 분야 지식이 부족할 수 있으며(knowledge cutoff), 학습 데이터의 품질과 다양성에 성능이 크게 좌우된다.
설명 가능성 부족(Black Box 문제): LLM이 특정 답변을 생성한 이유나 과정을 명확히 설명하기 어려워(블랙박스 문제) 신뢰성 확보 및 오류 수정에 어려움이 있다.
보안 취약점: 프롬프트 인젝션(Prompt Injection), 데이터 유출 등 새로운 형태의 보안 위협에 노출될 수 있다.

7. 전망[편집]

멀티모달(Multi-modal) LLM: 텍스트뿐만 아니라 이미지, 음성, 영상 등 다양한 유형의 데이터를 함께 이해하고 생성하는 방향으로 발전. (GPT-4V, Gemini 등)
모델 경량화 및 효율화: 더 적은 자원으로 고성능을 내는 소형 LLM(sLLM, Small Language Model) 또는 특정 작업에 최적화된 모델 개발 연구 활발. (예: 양자화, 지식 증류)
에이전트 AI(Agent AI): LLM이 단순히 텍스트를 생성하는 것을 넘어, 스스로 목표를 설정하고 계획을 수립하며 외부 도구(API, 검색 엔진 등)를 사용하여 작업을 수행하는 자율적인 에이전트로 발전할 가능성.
개인화 및 온디바이스 LLM: 개인의 데이터와 선호도에 맞춰진 LLM, 또는 개인 기기(스마트폰, PC)에서 직접 실행되는 LLM의 등장.
강화학습과의 결합 심화: RLHF를 넘어선 더 정교한 피드백 방식과 보상 모델을 통해 모델의 정렬(alignment) 및 안전성 향상 지속.
사회적 제도 및 규제 논의 활발: LLM의 급격한 발전에 따른 잠재적 위험을 관리하고 책임 있는 개발 및 활용을 위한 법적, 제도적 논의가 국제적으로 진행될 것이다.

8. 여담[편집]

LLM의 발전 속도가 매우 빨라 몇 달 사이에 새로운 SOTA(State-of-the-art) 모델이 등장하는 경우가 흔하다.
'인공일반지능(AGI)'에 대한 기대와 우려가 LLM의 발전과 함께 다시금 부상하고 있다.
나무위키에서는 편집이나 토론에서 사용이 금지된다. 자세한 내용은 ChatGPT 참고.

[1] 다음 단어 예측, 마스크된 단어 예측 같은거[2] 번역, 질의응답, 감정 분석 등[3] OpenAI의 연구 "Scaling Laws for Neural Language Models" 등에서 제시되었다.